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' Pré-processamento 
ns 


= Prepara os dados para uso de algoritmo 
de modelagem 

= Procura melhorar desempenho do 
algoritmo 
= Custo 


= Tempo 
= Memória 


= Qualidade 
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EA, Amostragem de dados 


= Seleção de objetos 
= Base de dados grande 


= Algoritmo de AM não precisa usar todo conjunto 
de dados 


= Eficiência X acurácia 
= Amostra 


= Pode levar à mesma acurácia com um esforço 
computacional menor 


= Deve ser representativa 
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A IN Tópicos 


= Introdução 
= Amostragem 
= Qualidade de Dados 
= Limpeza de Dados 
= Transformação de dados 
= Seleção de atributos 


27/02/08 


A ' Exemplo 


= Primeiro passo: 
= Eliminar atributos irrelevantes 
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EA, Amostragem de dados 


= Amostra representativa 
= Aproximadamente as mesmas propriedade 
de interesse do conjunto de dados original 
o Ex.: Médiapop-original = Média, mostra 
= Deve fornecer uma estimativa da 
informação contida na população original 
= Uso da amostra deve ter efeito semelhante 
ao uso de toda a população 
= Não é possível garantir que isso ocorra 
» Técnicas de amostragem aumentam as chances 
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=, Amostragem de dados 
E 


= Tipos de amostragem 
= Amostragem aleatória simples 
= Amostragem estratificada 
= Amostragem progressiva 
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=, Amostragem de dados 
ndo 


E Doente 
O Saudável 
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=, Amostragem de dados 
ndo 


= Amostragem progressiva 


n Começa com pequenas amostras 
= Progressivamente aumenta tamanho da 
amostra 
» Enquanto acurácia do modelo preditivo aumentar 


= Confirmar com outras amostras de tamanho 
semelhante à escolhida 


= Boa estimativa de um bom tamanho 
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EA, Amostragem de dados 


E Doente 
O Saudável 
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E Doente 
O Saudável 
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ER Dados desbalanceados 
E 


= Quando número de exemplos varia para as 
diferentes classes 
= Natural em alguns domínios 
= Problema com geração / coleta de dados 

= Várias técnicas de AM não conseguem lidar 
com esse problema 
= Tendência a classificar na(s) classe(s) 

majoritária(s) 
= Alternativa: balanceamento artificial 
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EA 4 Qualidade de dados 


= Em geral, dados não foram gerados para uso 
em AM 
= Produzidos para outros propósitos 
= Frequentemente apresentam problemas 


= Algoritmos de AM precisam geralmente de 
dados “limpos” 
= Entra lixo, sai lixo 


= Problemas nos dados precisam ser detectados e 
corrigidos 
= Limpeza de dados 
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EA, Qualidade de dados 


= Exemplos de causas: 
= Falha humana 
= Falha no processo de coleta de dados 
= Limitações do dispositivo de medição 
= Má fé 
= Valor do atributo alvo muda com o tempo 
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A ' Limpeza 


= Correção de erros detectados nos dados 


= Deve lidar com: 
= Dados com ruídos 
= Outliers 


= Dados incompletos ou atributos com 
valores ausentes 


= Dados inconsistentes 
= Dados redundantes 
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EA 4 Qualidade de dados 


= Problemas podem ocorrer nos 
processos de medições e na coleta de 
dados 
= Erros podem ter causa 
= Sistemática 
= Mais fácil de detectar e corrigir 
= “Aleatória” 
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EA 4 Qualidade de dados 


= Consequências: 
= Valores ou objetos inteiros podem ser 
perdidos 


= Objetos espúrios ou duplicados podem ser 
obtidos 


= Ex.: diferentes registros para mesma pessoa 
que morou em endereços diferentes 


= Inconsistências 


= Ex.: pessoa com 2 m pesando 10 Kg, idade e 
data de nascimento 
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À | Ruídos 
a - 
= Dados com ruídos podem levar a um super- 
ajuste do modelo 
= Não é possível ter certeza de que um valor 


apresenta ruído 


= Tem-se apenas um indício, a menos que seja 
inconsistente 


= Outliers podem sugerir a presença de ruído 
= Nos atributos de entrada ou no atributo alvo 
= Consequências diferentes 
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Ra Exemplo 


E Doente 

O Saudável 
Possíveis 
ruídos 


Dados sem ruído Dados com ruído 
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A Outliers 


m Doente 
O Saudável 
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ER Valores ausentes 
E 


= Alternativas 


= Ignorar valores ausentes 


= Utilizar apenas os que estão presentes nas instâncias 
consideradas 


- Ex.: Menos atributos na medida de distância 
= Modificar algoritmo para lidar com valores ausentes 
= Descartar exemplos com atributos que 
apresentem valores ausentes 


= Estimar valores ausentes 
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py Outiiers 


= Existem várias definições 


= Objetos ou valores anômalos 
= Objetos que têm características diferentes da 
maioria dos demais objetos 


= Valores de um atributo que destoam dos valores típicos 
para o atributo 


= Ao contrário de ruídos, outliers podem ser 
objetos ou valores legítimos 
= Em várias aplicações, objetivo é encontrar outliers 


27/02/08 


UR Valores ausentes 
E 


= Não é raro um objeto não ter o valor de um 
ou mais atributos 


Possíveis causas: 


— Atributo não foi considerado — Não necessidade ou obrigação 
quando os primeiros dados de apresentar um valor para 
foram coletados atributo(s) de algumas 
Desconhecimento do valor do instâncias 
atributo por ocasião do Inexistência de valor para o 
preenchimento atributo em algumas instâncias 
Distração, mal entendido ou 
declinamento na hora do 
preenchimento 


Problema com dispositivo / 
processo de coleta 
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ER Valores ausentes 
E 


= Descartar exemplos 


= Geralmente empregada quando um dos 
atributos ausentes é o atributo classe 
= Não é indicada quando: 
= Ocorre com poucos atributos do exemplo 


= Número de atributos com valores ausentes varia 
muito entre os exemplos com esse problema 


= Há risco de descartar dados importantes 
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ER Valores ausentes 
E 


= Estimativa de valores ausentes 


= Utilizar algum método ou heurística para 
automaticamente definir valores 
= Alternativa mais utilizada 
= Diferentes abordagens podem ser seguidas 
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ER Valores ausentes 
nd 


= Observações 


= Em alguns casos, a ausência de valor é uma 
informação importante sobre a instância 

= Existem situações em que o valor precisa estar 
ausente 


= Ex.: Resultado de exame pré-natal para paciente do sexo 
masculino 


» Atributo número de partos para paciente do sexo masculino pode 
ter valor O 


= Ao invés de ausente, é um valor inexistente 
= Difícil tratar de forma automática 
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ER Valores inconsistentes 
na 


= Dados podem conter valores inconsistentes 


= Atributos preditivos 
= Ex. Dados com código postal invalido para o nome de 
rua especificado 
» Erro / engano 
- Proposital (fraude) 
= Atributo alvo 


= Podem levar a exemplos conflitantes 


- Ex.: valores iguais para atributos de entrada e diferentes 
para atributo de saída 
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ER Valores ausentes 
E 


= Heurísticas para estimativa: 
= Criação de um novo valor 
= Dados categóricos nominais (sem ordem) 
= Média (mediana, moda) de todos os valores do 
atributo 
= Para série de valores, entre valores anterior e posterior 
= Moda = valor ou intervalo mais frequente 
= Média (mediana, moda) dos vizinhos mais próximos 
= Valor induzido por algum estimador 
= Valor presente em exemplos semelhantes 
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A! |, Exercício 
nl 


= Tratar dos valores ausentes da tabela abaixo 
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ER Valores inconsistentes 
na 


= Algumas inconsistências são de fácil detecção 


= Violação de relações conhecidas entre atributos 


= Ex.: Valor de atributo A é sempre menor que valor de 
atributo B 


= Valor inválido para o atributo 
= Ex.: altura com valor negativo 


= Em outros casos, informações adicionais precisam 
ser verificadas 
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Ra Valores redundantes 
| 
= Valores que não trazem informação nova 


= Dados (quase) duplicados 


= Ex.: Pessoas em diferentes BDs com mesmo 
endereço e pequenas diferenças nos nomes 


= Deduplicação 
= Detectar e eliminar (ou combinar) duplicações 


= Cuidado para não eliminar ou combinar dados que 
representam objetos diferentes 
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as Exemplo 


= Dados redundantes 


saudável 


: Pedro inão não 


| José isim — não pequena sim | 2000 
: | Sérgio ; não não pequena nao 1100 saudavel 


*, Transformação de dados 


= Conversão de valores numéricos para 
simbólicos 

= Conversão de valores simbólicos para 
numéricos 

= Binarização 

= Normalização de valores numéricos 

= Tradução de atributos 
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EN 


+, Exemplo 
= Dados redundantes 
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=, Exercício 
= Definir problemas existentes na tabela 
abaixo: 
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Bm, Conversão de valores simbólicos 
nda ipa 


= Algumas técnicas trabalham apenas com 
valores numéricos 
= Valores simbólicos precisam ser convertidos para 
numéricos 
= Conversão depende de: 
= Ordenação dos valores 
= Presente ou ausente 


= Número de valores 
= =2 (binários) ou > 2 
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ER Conversão ordinal para binário 
a se 


= Codificar para valor inteiro positivo 
= Ex. Pequeno (1), médio (2) e grande (3) 
= Algumas técnicas trabalham apenas 
com valores binários 
= Codificar cada valor por um vetor binário 
= Código cinza: 
« 000, 010, 011, 001, 101, 111, 110, 100 


= Código termômetro: 
- 001, 011, 111 
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A À Bioinformática 


= Análise de sequências de nucleotídeos 
ou de aminoácidos 


= Grande número de atributos 


= Valor definido de um alfabeto de 4 (nucleotídeos) 
ou de 20 (aminoácidos) possíveis valores 


= Ordem dos valores dos atributos na sequência é 
importante 
= Mas valores não são ordenados 
= Reconhecimento de genes, previsão de 
estrutura de proteinas 
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E Conversão numérico para ordinal 
nd E sa 


= Discretização de valores 
= Transformar valores numéricos em intervalos ou 
categorias 
= Sub-tarefas 
= Definição do número de categorias 
= Geralmente feito pelo usuário 
= Definição de como mapear valores dos atributos 
contínuos para essas categorias 
= Definição do frequência/largura dos intervalos 
= Geralmente feito por um algoritmo 
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ER Conversão nominal para binário 
A 1 SS. 


= Codificações 

= 1-de-n 
= Codificação canônica 
= Moda = posição com maior número de valores 1 
= Valores escalares podem virar vetores longos 

= m-de-n 
= Dos n valores, m são iguais a 1 
= Escolha de código 
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Mg! À Bioinformática 


= Alternativas para codificação numérica 
de sequências de bioinformática 
= Código 1-de-n para cada valor 
= Frequência com que cada valor aparece 


= Frequência com que subsequência de n 
valores aparece 


= Dividir a sequência em m trechos e utilizar 
a frequência dos valores em cada trecho 
= Preserva parte da ordem 


André de Carvalho - ICMC/USP 


A Pseudo códigos 


= Imagine que um atributo seja nome de 
país 
= Existem 193 países (192 representados na 
ONU + Vaticano) 
= Alternativa de codificação: 


= Transformar valores nominais em valores 
numéricos utilizando a codificação 1-de-n 
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A ' Exemplo 


= Atributo = nome de país 
= 193 (192 representados na ONU + Vaticano) 
= Maldição da dimensionalidade 
= Grande parte dos elementos possui valor O 


ESTO + ee [57 
2 193 


t 


[Epa + ee [57 
2 193 


= Esparsos 


André de Carvalho - ICMC/USP 


A! 4 Transformação de atributos 


= Valor numérico de um atributo pode 
precisar ser transformado em outro 
= Limites de valores para atributos distintos 
podem ser muito diferentes 
= Evitar que um atributo predomine sobre outro 
= À menos que isso seja importante 
= Grande intervalo de variação de valores 
= Pode aumentar custo computacional 
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' Funções simples 
A yFUnç p 


= Uma função matemática simples é 
aplicada a cada valor do atributo 


= Possíveis transformações: 
= X&, log x, ex, Nx, 1/x, seno(x) e |x! 
- Funções sart, log e 1/x aproximam uma distribuição 
Gaussiana 
= Função log, é usada para comprimir dados 
com um grande intervalo de valores 
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A ' Exemplo 


= Outra alternativa: 
= Transformar 193 atributos em 4 (10) 
pseudo-atributos 
= Continente: 7 valores 
= PIB: 1 valor 
= População: 1 valor 
= Área: 1 valor 
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A 4 Transformação de atributos 


= Aplicada aos valores de um dado atributo de 


todos os objetos 
= Ex.: supor que apenas a magnitude do valor de 


um atributo é importante 
= Converter valor de todos os atributos é para o valor 


absoluto 
= -4,5e-2 setornam4,5e2 


= Variações 
= Funções simples 
= Normalização 
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ER Normalização 
E Ma 
ni a 


= Faz com que conjunto de valores de um 
atributo tenha uma dada propriedade 


= Alternativas 
= Pela amplitude 
= Re-escalar 
= Padronizar 
= Pela distribuição 
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A! | Re-escala 
noi 


= Para re-escalar os valores de um atributo: 
1. Adicionar ou subtrair uma constante 
2. Multiplicar ou dividir por uma constante 


= Utilizado para mudar intervalo de valores 
dos dados 
= Permite converter todos os valores de um 
atributo para o intervalo [0, 1] 
de= (d-min,) 
(max ,—min ,) 
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Mg! Ê Padronização 


= Para padronizar os valores de um atributo: 
1. Adicionar ou subtrair uma medida de localização 
2. Multiplicar ou dividir por uma medida de escala 
= Se os valores têm uma distribuição 
Gaussiana 
= Subtrair a média 
= Dividir pelo desvio padrão 
= Produz conjunto de valores com distribuição 
normal (0,1) 
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Não existe relação de 
ordem para os tipos de dor 


= Exercício 
e nm a 
= Converter os dados abaixo para valores 
numéricos no intervalo [0, 1] 
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A! |, Exercício 
nl 


= Re-escalar os valores 12, 5, 4, 10, 20, 3 para 
o intervalo [-1, +1] 
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A! | Exercício 
nl 


= Converter os seguintes valores numéricos 
utilizando re-escala e padronização 





Valores | Re-escala | Padronização 

















LE, 
Varv) = — V.—V 
(v) PD ) 
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ER Conversão de valores numéricos 
= 1 Sadie, 


= É preferível padronizar a re-escalar 
= Atributos mais importantes podem ter 
limites maiores 
= Padronizar 
= Re-escalar 
= Normalização pela distribuição 
= Muda escala de valores 
= Ex.: função /og 
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A ' Tradução 


= Ocorre devido a limitações no formato 
utilizado para armazenar o atributo 
= Alguns algoritmos podem ter dificuldades 
com formato original 
= Exemplos 
= Conversão de hora para valor inteiro 
= Conversão de data para valor inteiro 
= Conversão de rua para código postal 
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=|, Maldição da dimensionalidade 
E o 


= Hipervolume cresce exponencialmente 

com a adição de novos atributos 

= Instâncias formadas por 1 atributo com 10 
possíveis valores: 10 possíveis objetos 

= Instâncias formadas por 5 atributos com 10 
possíveis valores: 10º possíveis objetos 

= Problemas com poucos exemplos e muitos 
atributos: 

= Dados se tornam muito esparsos 
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=|, Maldição da dimensionalidade 
E di 


= Número de exemplos necessários para 
manter desempenho 


= Cresce exponencialmente com o número 
de atributos 


= Na prática, o número de exemplos de 
treinamento é fixo 


= Redução de dimensionalidade 
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=|, Maldição da dimensionalidade 
E ds 


= Supor que dados são representados por 
pontos em um hipervolume 
= Valores dos atributos são os valores das 
coordenadas 


E Doente 
O Saudável 
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=|, Maldição da dimensionalidade 
E dá 


= Dados esparsos 
= Sem exemplos em várias das regiões do 
espaço de objetos 
= Instâncias parecem equidistante 


= Prejudica o desempenho de algoritmos que 
medem similaridade de dados por distância 
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1 (Maldição da dimensionalidade 
na Cm 





Desempenho do classificador 


Número de atributos 
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=, Redução de dimensionalidade 
E E 


= Alguns conjuntos podem ter um número 
muito grande de atributos 


= Ex.: objeto é um vetor com frequência de cada 
palavra que aparece em um texto 


= Reduzir dimensão 


= Agregação de atributos 


= Criar novos atributos que são uma combinação dos 
atributos originais 


= Seleção de atributos 
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A Ê Seleção de atributos 


= Abordagens 
= Embutida 
= Seleção é feita pelo algoritmo de AM 
= Filtro 
= Wrapper 
= Heurísticas 
= Ordenação 
= Subconjunto 
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“ Filtros 
nda 
= Vantagens 


= Não depende do algoritmo de AM 


= Os atributos selecionados podem ser utilizados 
por diferentes algoritmos de AM 


= Baixo custo computacional 
= Podem ser muito rápidos 


= Conseguem lidar de forma eficiente com 
uma grande quantidade de dados 


A Ê Seleção de atributos 


= Permite 
= Identificar atributos importantes 


= Melhorar desempenho de algoritmo de 
para indução de modelos 


= Minimizar os efeitos de ruídos 
= Reduzir custo de coleta de dados 
= Aumentar acesso à tecnologia 
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Rg! ' Filtros 
= Seleção de atributos independe do 


algoritmo de AM utilizado 
= Ex.: verifica co-relação entre atributos 


A ' Filtros 


= Desvantagens 


= Ignora interação com o algoritmo 


= Não levar o viés do algoritmo em consideração 
pode levar a modelos pouco eficientes 


= Pode ignorar dependências entre atributos 





=, Wrappers 

na a 

= Utilizam o algoritmo de AM para selecionar 
atributos 


= Ex. Atributos que levaram a menos erros de 
classificação para uma rede MLP 


Nrappers 


EN 


= Desvantagens: 
= Risco de overfitting 
= Desempenho depende do algoritmo de indução 


= Custo computacional elevado, por causa do 
grande número de execuções do algoritmo 
= Nem sempre, existem estratégias eficientes 


= Precisa ser repetido quando um novo algoritmo 
de AM for utilizado 


L Exercício 
] 


= Ordenar os atributos mais importantes 
para o diagnóstico de pacientes 
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Ra Wrappers 
| 
= Vantagens 
= Melhor conjunto para um dado algoritmo 
= Pode selecionar também melhor número de 
atributos 
= Geralmente melhora desempenho obtido 
pelo algoritmo 


E y Ordenação X Seleção 


Atributos originais 


12345678 9410 
Atributos ordenados 


E - BR Bic 


123456/78910 


Ordenação 








Atributos originais 


1234567891 5 

Subconjunto de atributos Seleção 

(EH 
2345678940 
2702j08 


L Exercício 
] 


na 


Enjôo: 5/6 
Manchas: 4/6 
Febre: 3/6 
Dores: 3/6 


Ranking: 
1- Enjôo 
2- Manchas 
3- Febre 


4- Dores 
André Ponce de Leon F de 
Carvalho 





a, Exercício 
EE | 
= Selecionar o subconjunto de atributos mais 


importantes para o diagnóstico de pacientes 
= Wrapper 


André Ponce de Leon F de 
Carvalho 


) 
f 


y 


Espaço de busca com quatro atributos (dimensões) 


|, Geração de subconjuntos 


= Existem quatro alternativas 
= Geração para trás (backward generation) 
= Começa com todos os atributos e remove um por vez 
= Geração para frente (forward generation) 
= Começa sem nenhum atributo e inclui um atributo por vez 
= Geração bidirecional (hiderectional generation) 
= Busca pode começar em qualquer ponto e atributos 
podem ser adicionados e removidos 
= Geração estocástica (random generation) 


= Ponto de partida da busca e atributos a serem removidos 
ou adicionados são decididos de forma estocástica 


L Exercício 


da 


Febre O mancha 
L coincide 


André Ponce de Leon F de 
Carvalho 


As Seleção de subconjunto 
| 
= Quatro aspectos precisam ser tratados: 


= Ponto de início da busca e da geração de 
subconjuntos 


= Estratégia de busca 
= Estratégia de avaliação 
= Critério de parada 


|, Geração de subconjuntos 


E 


Backward 
Feedforward 
Bidirecional 





aU Estratégia de busca EA (Considerações finais 


= Define o algoritmo usado para realizar a busca n Pré-processamento 
= Busca completa (exponencial ou exaustiva) E Amostragem 


= Avalia todos os possíveis subconjuntos E Limpeza de dados 
= Busca heurística (sequencial) 


= Utiliza regras e métodos para conduzir a busca = Tra nsformação de dados 


= Não garante que uma solução ótima seja encontrada = Red ução do número de atributos 
= Busca não-determinística 

= Relacionado com a geração estocástica 

= Boa solução pode ser encontrada antes do final da busca 

= Não garante ótimo 
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A 4 Perguntas A 4 Exercício 


= Escolher 3 conjuntos de dados da UCI e, para 
cada conjunto 
= Aplicar uma técnica de amostragem dos dados 
= Aplicar técnicas para limpeza de dados 


= Criar uma variação com todos os atributos 
numéricos 


= Criar uma variação com todos os atributos 
simbólicos 

= Selecionar atributos usando uma técnica baseada 
em filtro e uma baseada em wrapper 
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